第一章
1.大数据的四个特点(4V)
(1)数据量大(Volume):数据量十分巨大,已经从TB级别跃升到PB级别
(2)数据类型繁多(Variety):分为结构化数据(10%),非结构化数据(90%),非结构化数据包含半结构化数据;结构化数据指存储在关系数据库种的数据,后者种类繁多,包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息,网络日志等
(3)处理速度快(Velocity):实时分析结果、秒级响应
(4)价值密度低(Value):价值密度远低于传统关系数据库种已有的那些数据
2.大数据计算模式
(1)批处理计算:
A:MapReduce:大数据批处理技术,可以并行执行大规模数据处理任务,用于大规模数据集的并行计算。
B:Spark:一个针对大数据集合的低延迟的集群分布式计算系统,比MapReduce快许多
(2)流计算:
流数据是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随时间的流失而降低,因此必须采用实时计算的方式给出秒级响应。
流计算:可以实时处理来自不同数据源的、连续到达的流数据,经过实时分析处理、给出有价值的分析结果。
3.云计算
1.云计算的概念
1.云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力
2.云计算3种服务模式:
a:IaaS(基础设施即服务):将基础设施(计算资源(cpu、内存)和存储(磁盘))作为服务出租
b:PaaS(平台即服务):把平台作为服务出租
c:SaaS(软件即服务):把软件作为服务出租
3.元计算的三种类型:
a:公有云:面向所有用户提供服务
b:私有云:只为特定用户提供服务
c:混合云:综合了公有云和私有云的
大数据与云计算知识点
最新推荐文章于 2024-03-07 21:25:27 发布
本文深入探讨了大数据的4V特点,批处理与流计算模式,以及云计算的概念、服务模式和关键技术,如虚拟化、分布式存储和计算。同时,介绍了Hadoop的HDFS、MapReduce及其相关概念,以及HBase、Spark和Hive在大数据处理中的作用。
摘要由CSDN通过智能技术生成